Проект

Рынок заведений общественного питания Москвы

Описание проекта

Инвесторы из фонда «Shut Up and Take My Money» решили открыть заведение общественного питания в Москве. Нужно решить:

Детализированное исследование: открытие кофейни

Основателям фонда «Shut Up and Take My Money» хотят повторить успех сериала «Друзья» — открыть такую же крутую и доступную, как «Central Perk», кофейню в Москве. Заказчики не боятся конкуренции в этой сфере. Нужно исследовать рынок кофеен в Москве и выдать рекомендации по открытию**

Описание данных

Файл moscow_places.csv:

План работы

1. Загрузка данных и изучение общей информации
2. Предобработка данных
2.1. Проверка на дубликаты
2.2. Создание дополнительных столбцов
3. Анализ данных
3.1. Анализ категорий заведений
3.2. Анализ соотношения сетевых и не сетевых заведений в датасете
3.3. Топ 15 популярных сетей в Москве
3.4. Анализ административных округов Москвы присутствующих в датасете
3.5 Анализ и визуализация распределения средних рейтингов по категориям заведений
3.6. Определение и анализ топ-15 улиц по количеству заведений
3.7. Определение улиц на которых находится только один объект общепита и анализ этих заведений
3.8. Анализ и сравнение цен в Центральном административном округе и других
3.9. Длполнительный анализ.
3.10. Общий вывод.
4. Детализированное исследование: открытие кофейни.
4.1 Вывод и рекомендации.
5. Презентация.

1. Загрузка данных и изучение общей информации

К плану работ

Загрузим данные о заведениях общественного питания Москвы.

Путь к файлу: /datasets/moscow_places.csv.

Изучим общую информацию о датасете.

Вывод:

В датасете представлено 8406 заведений обществвенного питания Москвы.

В остальных столбцах:

Датасет хранит 7 строковых столбцов, 6 численных и 1 целочисленный.

2. Предобработка данных

2.1. Проверка на дубликаты

К плану работ

Заменим все прописные буквы на строковые в названиях - столбец 'name' и адресах - 'address'
для удобства поиска дубликатов.

Явные дубликаты отсутствуют

Вывод:

Мы видим, что максимальное количество пропусков в столбце 'middle_coffee_cup' - оно и понятно, если это не кофейня, то кто будет заморачиваться со средней ценой чашечки каппучино? - 93,6% пропусков в столбце. Только 6,4% данных заполнено в этом столбце.
Еще один столбец с пропусками 62,5% - это 'middle_avg_bill' (срединный средний чек) - это числовое значение из диапазона или из одного числа столбца 'avg_bill'(средний чек) - теоретически из этого столбца можно было бы взять данные 7,9%. Но, поскольку данные собраны из разных источников и заполнение не будет корректным, кроме того удаление такого количества данных исказит результаты исследования, поэтому оставим пропуски так как есть. В дальнейшем мы построим несколько визуализаций, доказывающих правильность нашего выбора.
Еще один недозаполненный столбец 'price' - это градация заведений по среднему чеку - 60% пропуски, поступим аналогично столбцу 'middle_avg_bill'. Кроме того есть пропуски в столбце 'hours' - часы работы 6,4% это не существенно.

По поводу заполнения пропусков предлагаю построить визуализации и определить - можно ли дозаполнить значения.

2.2. Создание дополнительных столбцов

К плану работ

Выводы:

Итого, мы видим, что из 1308 вариантов часов работы заведений 730 - работают круглосуточно и ежедневно (24/7), это 8,7% заведений. Самые популярные часы работы заведений общественного питания с 10.00 до 22.00 и ежедневно, круглосуточно. Кроме того обнаружилось 536 заведений не заполнили свои часы работы. Мы сохранили эти значения, потому что они составляют 6,37%, а это больше допустимых 5%.

2.3. Поменяем назания округов

К плану работ

2.4. Исследуем распределение заведений по принадлежности к сетям

К плану работ

Мы видим, что, в списке топ названий заведений есть: "кафе", "хинкальная", "шаурма", "столовая", "чайхана" и "ресторан"(вынесем эти названия в стоплист). Скорее всего это не сети, а просто заведений без уникального названия.

5201 заведений в датасете не принадлежит сетям, 3205 - сетевые заведения

Среди названий из стоплиста 81 заведений все-таки являются сетевыми

Выводы:

Cетевых заведений 3205, из них 3124 сети с уникальными названиями, следовательно часть сетевых заведений не имеют уникального названия и таких заведений 81. Сюда попали чайхоны (37) и хинкальные (44) у которых это название и есть сетевое имя.
Посмотрим распределение цен, ценовых категорий и средних чеков в самой распространенной сети заведений - "Шоколаднице". Если на лицо будет однородность распределения, то логично будет заменить пропуски средними значениями

2.5. Исследуем распределение среднего чека в сети Шоколадница

К плану работ

Выводы:

Мы видим, что даже в рамках одной сети мы не можем заполнить значения столбца "middle_avg_bill" по данным из столбцов "middle_coffee_cup" и "avg_bill" потому что они разные.
Также, выведя на экран количество категорий цен в рамках сети Шоколадница - мы видим, что 4% - это цены выше среднего и 2 - низкие. В сумме это 6% цен отличаются от основной категории цен "средние", это более 3%, которые мы могли бы принять за погрешность.
Также в описании мы видим, что нет совпадения между средним и медианным значением рейтинга, среднего чека и среднего чека чашки кофе.
Если нет уникального среднего чека даже внутри сети, то разумно оставить столбец "middle_avg_bill" "как есть" и не обращать внимание на пропуски.
Очень интересная деталь шокладница на проспекте мира 119 стр. 23 имеет цены выше среднего, средний чек 1250 и рейтинг 3,9 - это самый низкий рейтинг из выведенных на экран.

2.6. Исследуем распределение заведений по категориям цен

К плану работ

Вывод:

Распределение по уровню цен в Москве 2/3 заведений имеют средние цены. 1/6 часть заведений имеют цены выше среднего, 1/7 часть имеют цены - высокие. То есть, почти треть заведений имеют уровень цен высокие и выше среднего и лишь 5% - каждое двадцатое заведение имеет низкие цены.
Отсюда вывод: В Москве нет места низким ценам!
Или второй вариант - высокая стоимость аренды диктует либо цены высокие и выше среднего, либо средние цены и большое количество посетителей

2.7. Исследуем средний и медианный чек и количество заведений в Москве в зависимости от ценовой категории

К плану работ

Вывод:

В таблице data_drop_na_price, где мы удалили все пропуски значений среднего чека и категории уровня цен. Теперь в данных есть 4 градации уровня цен в заведении: "выше среднего", "средние", "высокие" и "низкие". При выводе на экран верха таблицы мы видим, что в категории "средние цены" есть неоднородность: ресторан -1550, кафе - 1000, пиццерия - 500 и паб, бар - 199. При этом, у нас в таблице осталось 2679 строк от 8406 - это всего лишь 31,5% данных. Данные о средней стоимости чашки каппучино удалять не стали потому что тогда останется менее 10% данных и исследование не будет достоверным.
Мы сделали это намеренно чтобы исследовать распределение цен.

Вывод:

При этом мы видим, что медианные и средние цены не совпадают даже в этом небольшом количестве полностью заполненных данных. Медианная цена во всех ценовых категориях ниже чем средняя.
суммарное количество заведений с высокими и выше среднего ценами почти в 2 раза ниже количества заведений со средними ценами.
Построим ящики с усами по категориям заведений и по округам города Москвы и посмотрим совпадают ли медианы?

2.8. Исследуем медианный чек в зависимости от категории заведений и ценовой категории по округам

К плану работ

Вывод:

Медианы среднего чека отличаются по округам и категориям заведений. При этом мы определили что Центральный административный округ исказит картину и поэтому далее не берем его в расчет.

Построим ящик с усами по округам и категориям цен в заведаниях.

Выводы:

Медианы не совпадают и в различных категориях цен в разных округах.
Возьмем категорию средние цены, категория заведения - сетевая кофейня в ЦАО, и построим гистограмму распределения среднего чека.

2.9. Исследуем медианный чек в одной из самых распространенных категорий

К плану работ

Вывод:

Проверили распределение на гистограмме распределение средниего чека в категории средние цены и категория сетевая кофейня в ЦАО. На гистограмме есть пики на уровне 260 и 700 рублей за средний чек. Еще одно подтверждение правильности незаполнеия пропусков 'middle_avg_bill'.

Общий вывод:

Медиана сильно отличается и в заведениях различных ценовых категорий. Делаем вывод - заполнять пропуски в стролбце "middle_avg_bill" некорректно. Даже усеченные данные (без пропусков значений) не дают однозначной картины - чем заполнить пропуски.
Мы исследовали только полные данные составляющие 31,5% и получили неоднородность как по категориям заведений, так и по категории цен "price" столбец в сочетании с округами Москвы. Следовательно распределение цен на рынке общественного питания зависит от слишком многих факторов и заполнение пропусков столбца "middle_avg_bill" невозможно.
По поводу заполнения пропусков столбца "price" - определить к какой категории цен принадлежит заведение сложно в разных районах и разных категориях заведений могут быть разные цены, поэтому тоже оставим как есть.
По поводу столбца "seats" - количество посадочных мест - пропуски это может быть как незаполненность данных, так и заведения с полным отсутствием посадочных мест, поэтому этот столбец тоже оставим "как есть".
Однако уже понятна ставка большей части заведений в Москве - невысокий средний чек и большое число посетителей

3. Анализ данных

3.1. Анализ категорий заведений

3.1.1 Анализ количества объектов общественного питания по категориям

К плану работ

Исследуем количество объектов общественного питания по категориям:

Ответим на вопрос о распределении заведений по категориям.

Вывод:

Мы видим, что в первичных данных больше всего кафе - на них приходится 28,3% заведений, это более четверти от общего количества, на второрм месте идут рестораны - 24,3%. На третьем месте - кофейни 16,8%, далее следуют бар, паб 9,1%, пиццерия 7,53%, быстрое питание 7,17% и с небольшими долями столовые 3,75% и булочные 3,05%.

Причем на заведения длительного пребывавания (кафе и рестораны) приходится чуть больше половины 52,6%. Остальную часть рынка занимают заведения быстрого питания, еда на вынос и заведения с барными стойками. Если учесть что мы рассматриваем данные лета 2022 года, а до этого были самоизоляция и ограничения в работе заведений общественного питания. Разрешена была работа "на вынос" и доставка, и продолжалось это с марта 2020 года до марта 2022 года, то разумно предположить что из-за ограничений в работе заведения общественного питания длительного пребывания просто разорились и не выдержали конкуренции с предприятиями небольшого формата и большей мобильности. Если освобождаются места на рынке их должен кто-то заполнить. Есть предположение что из маленького формата пиццерий, кофеен и баров/пабов выростают вполне себе большие рестораны и кафе

3.1.2 Анализ количества посадочных мест в заведениях по категориям

К плану работ

Исследуем количество посадочных мест в заведениях по категориям:

Что удивительно - все эти заведения сосредоточены в ЗАО, в основном это кафе и рестораны, но также есть 2 кофейни и одна пиццерия. Отсюда вывод - в ЗАО сосредоточены заведения-гиганты общественного питания.

Вывод:

Лидируют по медианному значению посадочных мест - рестораны 86, чуть меньше медианное значение у баров/пабов (82), на третьем месте кофейни - 80 посадочных мест и четверку лидеров замыкает столовая - 76 посадочных мест.
Похоже кофейный бизнес идет хорошо количество посадочных мест догоняет рестораны и пабы и, что удивительно - кофейни перегнали столовые! Еще одна аномалия - бары/пабы по среднему количеству посадочных мест обгоняют рестораны.
Похоже что на рынке происходит размывание границ категорий заведений: пабы становятся настолько большими что вмещают посетителей как рестораны, кофейни обгоняют по посадочным местам кафе и заведения быстрого питания.

В целом медианное количество посадочных мест в заведениях Москвы от 50 до 86.

Построим боксплот с этими данными и еще один с разделением на сетевые и не сетевые заведения

Тройка категорий-лидеров по посадочным местам: ресторан, бар/паб и кофейня.

Вывод:

В кафе, ресторанах, кофейнях, быстром питании и столовых в сетевых заведениях медиана посадочных мест больше. В булочных медиана одинаковая вне принадлежности к сетям, в барах/пабах и пиццериях не сетевых медиана посадочных мест больше.
Максимальная разница в медиане посадочных мест между сетевым и несетевым заведением в категории кофейня. Сетевая кофейня даст приблизительно +30 посадочных мест.
В Любом случае медиана посадочных мест во всех заведениях Москвы не превышает 100.
Это означает что большинство заведений на рынке среднего формата по посадочным местам. Свадьбу или корпоратив небольшой фирмы провести можно, а вот накормить какое-нибудь большое мероприятие - вряд ли.

3.2. Анализ соотношения сетевых и не сетевых заведений в датасете

К плану работ

Вывод:

Сетевых заведений почти в 2 раза меньше чем не сетевых (или 1/3 и 2/3) в общем датасете. Это и понятно открыть франшизу и пользоваться всеми привилегиями сети дороже чем быть пионером и открывать собственное заведение.

Вывод:

Если же рассмотреть в разрезе сетевое-не сетевое заведение, то
не сетевых по отношению к средним значениям по категориям:

Если в несетевых заведениях лидируют кафе, рестораны и кофейни(кафе существенно больше), то в сетевых - доли кафе, ресторанов и кофеен практически одинаковые. Значит открыть сетевое заведение - ресторан, кафе или кофейню выбирают равное количество инвесторов, вопрос видимо в уровне вложений - у кого сколько есть. Булочных, пиццерий и кофеен сетевых больше чем не сетевых. И наоборот кафе, ресторанов и пабов/баров больше не сетевых.
Очевидный вывод: кофейни чаще открывают сетевые.

3.3. Топ 15 популярных сетей в Москве

К плану работ

Сгруппируем данные по названиям заведений и найдем топ-15 популярных сетей в Москве.

Под популярностью понимается количество заведений этой сети в регионе. Построим подходящую для такой информации визуализацию.
Ответим на вопросы: Знакомы ли нам эти сети?
Есть ли какой-то признак, который их объединяет?
К какой категории заведений они относятся?

Вывод:

Итого в топе по количеству заведений - больше всего 7 - категория кофейня, 1 булочная, 2 пиццерии, 2 ресторана и 3 кафе. Следовательно в топе 7 кофеен из 15 это 47%. Значит, кофейни лидируют в топе заведений общественного питания Москвы. Также видно что из маленьких заведений кофейни и булочные "дорастают" до настоящих пабов/баров, кафе и ресторанов. Всё течет всё меняется, бизнес не стоит на месте. Скорее всего очевиден факт уменьшения доли крупных заведений в ресторанном бизнесе и заполнение образовавшегося места на рынке сетями кофеен и булочных, которые в период самоизоляции освоили онлайн формат и еду на вынос и быстро перестроились. Странно что в топе нет чебуречных и шаурмы, но, скорее всего они либо не попали в датасет из-за формата подачи информации, также мы отсекли их как no name в начале исследования.
Да это всё известные сети, часто их можно встретить возле станций метро в Москве. Prime раньше была сетью кофеен из Ижевска еще год назад она была самой крупной сетью с 850 заведениями по всей России, а теперть они позиционируют себя как бар/паб. Лавка Братьев Караваевых явно была булочной, а теперь ресторан. Яндекс лавка была доставкой продуктов, а теперь пиццерия. Самая распространенная сеть в Москве - это Шоколадница - скорее всего эта сеть консолидировано решала проблемные вопросы в кризис, хотя раньше их франшиза называлась ресторан, а у нас в датасете - это кафе, возможно их маркетологи пришли к выводу что сокращение формата - это путь к выживанию.
Появление Яндекс.Лавки в топе заведений очень странное, ведь это не совсем пиццерия. Признак который объединяет эти заведения - почти все они малого формата. В целом в топе много заведений, ориентированных на невысокий средний чек и большую проходимость

3.4. Анализ административных округов Москвы присутствующих в датасете

К плану работ

Отобразим общее количество заведений и количество заведений каждой категории по районам*. Попробуем проиллюстрировать эту информацию одним графиком.*

Вывод:

Мы видим, что сетевых заведений в ЮАО, СВАО и ЮВАО падает на 1%, а в ЗАО растет на 2%, ЮЗАО растет на 1%.
И наоборотв несетевых заведений доля растет на 1% в ВАО и ЮВАО. а в ЦАО и ЗАО падает на 1%.

Можно предположить что в ЮАО, СВАО и ЮВАО - дефицит сетевых заведений общественного питания, а в ЗАО и ЮЗАО их слишком много.
А не сетевые заведения сосредоточены в ВАО и ЮВАО, а в ЦАО и ЗАО их, вполне вероятно, не хватает.

Выводы:

Во всех округах города Москвы кроме Центрального лидируют кафе. В центральном - рестораны. На втором месте во всех округах кроме Центрального и Северного - рестораны. В Центральном на втором месте кафе, в Северном - кофейни. Во всех округах кроме Северного на третьем месте кофейни. В Северном - рестораны. На последнем месте по распространенности - булочные во всех округах кроме ЗАО и ЮЗАО - там они на предпоследнем месте, на последнем - столовые.
Визуально больше всего заведений общественного питания в Центральном округе, меньше всего - в Северо-Западном.
Если предположить что количество кофеен может "дорасти" до количества кафе как в ЦАО, то Хуже всего потенциал для роста числа кофеен в ЦАО, СЗАО(там мало заведений вообще) и в САО. Лучше всего потенциал ЮВАО и ВАО, на втором месте по возможности роста ЮЗАО и ЮАО. В остальных округах просто есть потенциал для открытия кофеен.

3.5 Анализ и визуализация распределения средних рейтингов по категориям заведений

3.5.1 Визуализируем распределение средних рейтингов по категориям заведений

К плану работ

Сильно ли различаются усреднённые рейтинги в разных типах общепита?

Выводы:

Низкие цены портят рейтинги в барах/пабах, быстром питании, кафе, пиццериях и ресторанах. Цены выше среднего портят рейтинги столовых. Средние цены снижают рейтинг булочных.
Самый высокий средний рейтинг 4,5 в ресторанах с высокими ценами - оно и понятно, скорее всего часть выручки рестораны тратят на оборудование, сотрудников и интерьер, а это благотворно сказывается на рейтинге. Самый низкий средний рейтинг в барах/пабах с низкими ценами 3,9 - страшно даже предположить что за публика туда ходит. В быстром питании с низкими ценами и столовых с выше среднего ценами средний рейтинг тоже низкий 4,0
Самый однородный средний рейтинг от 4,3 до 4,4 у кофеен, то есть какие бы цены не были у кофеен, ее рейтинг будет достаточно высоким.

Выводы:

Самые высокие рейтинги у баров/пабов. Самые низкие уровни рейтингов у быстрого питания. Отностительно однородные рейтинги в кофейнях, пиццериях и ресторанах. Центральный район всегда на пункт выше имеет рейтинг почти во всех категориях. Хуже всего со средним рейтингом у СЗАО быстрого питания 4,05. Лучше всего с рейтингом баров/пабов в ЗАО и ЦАО 4,5. Рейтинги 4,4 имеют булочные в ЦАО и ЮАО, бары/пабы в СЗАО, ЮАО, ЮВАО И ЮЗАО и рестораны и пиццерии в ЦАО.
С рейтингом кофеен хуже всего обстоит дело в ЗАО - 4,2, в остальных райнах 4,3

3.5.2 Построим фоновую картограмму (хороплет) со средним рейтингом заведений каждого района

К плану работ

Границы районов Москвы, которые встречаются в датасете, хранятся в файле admin_level_geomap.geojson

Вывод:

На карте видно что лучшие рейтинги в ЦАО, худшие в СВАО и ЮВАО.

3.5.3 Отобразим все заведения датасета на карте с помощью кластеров средствами библиотеки folium

К плану работ

Вывод:

Меньше всего заведений на юге и юго-востоке. Больше всего в центре. Также запад Москвы плохо заполнен заведениями общественного питания.

3.5.4 Особенности Центрального административного округа Москвы

К плану работ

ЦАО лидирует по всем параметрам:

3.6. Определение и анализ топ-15 улиц по количеству заведений

К плану работ

Построим график распределения количества заведений и их категорий по этим улицам. Попробуем проиллюстрировать эту информацию одним графиком.

Вывод:

На самых загруженных улицах:

Вывод:

В топ 15 улиц с самым большим количеством заведений попали не только загруженные общепитом, но и просто очень длинные улицы. Когда мы добавили протяженность улиц и рассчитали плотность загрузки заведениями - результат ТОП 15 изменился и лидером стала Пятницкая улица на которой плотность самая высокая - 26 заведений на 1 км. А МКАД с 10-го места переместился на последнее, просто потому что его протяженость 108 км.

3.7 Выберем лидеров в номинации улица-категория заведения

К плану работ

Выводы:

Безусловным лидером является проспект Мира, на нем больше всего кафе, ресторанов и кофеен.
На 7-ми улицах лидируют кафе, на 7 рестораны.
На Ленинградском проспекте кофеен и ресторанов поровну.
На МКАДе и Люблинской улице превалируют кафе.
На проспекте Вернадского и Ленинском проспекте превалируют рестораны. Не подходят для открытия кофеен (слабый потенциал развития) Кутузовский проспект, Ленинский проспект, Ленинградское шоссе, Ленинградский проспект, Варшавское шоссе, Пятницкая улица, улица Вавилова и Каширское шоссе - здесь их открыто примерно столько же сколько кафе и ресторанов. Также не подходит МКАД из-за скоростного режима и запрета остановок.

3.8 Исследуем потенциал открытия кофеен

К плану работ

Исследуем количество заведений по категориям и по округам г. Москвы
Посмотрим какой потенциал у кофеен по округам

Вывод:

Хороший потенциал открытия кофейни в ВАО, СВАО, ЮВАО, ЮЗАО, ЮАО. Чуть похуже - ЗАО. Центральный и СЗАО не рассматриваем - в первом максимум кофеен, во втором вообще мало заведений (скорее всего из-за отсутствия посетителей). Напоминаю, мы предположили что если в ЦАО одинаковое количество кофеен и кафе, то и в других округах есть потенциал для роста кофеен.

3.7. Определение улиц на которых находится только один объект общепита и анализ этих заведений

Что можно сказать об этих заведениях?

3.7.1 Список улиц на которых находится только один объект общепита

К плану работ

3.7.2 Анализ заведений, которые являются одним объектом общепита на улице (сетевые/не сетевые, категории, рейтинги, часы работы и распределение по округам)

К плану работ

В одиноких заведениях есть 2 пика уровня среднего чека - на 200р и на 1600р. Скорее всего - это 2 уровня обслуживания - быстрое питание (кофе и булочка или шаурма) и второй вариант 1600р - это заведение длительного пребывания с средним чеком полноценного обеда.

Вывод:

Число улиц с одним объектом общественного питания: 457.
Такие заведения общепита раскинуты практически по всей территории города и как правило располагаются вдали от основных дорог, в промзонах, рядом с парками.
Сетевых заведений на 41.8% меньше чем не сетевых.
Рейтинги обычно выше среднего от 4.0 и выше.
Больше всего улиц с одним заведением в ЦАО почти в три раза больше чем в СВАО, ВАО и САО. В остальных округах еще меньше.
Часы работы заведений 24/7. второй по популярности график 10.00 - 22.00 (самый распространенный).
Самый плохой рейтинг в ЮВАО, 3.0.
топ Категории: кафе (159), ресторан (93), кофейня (84).
. Визуально - больше всего таких улиц с одним заведений в центре и это связано с их короткой протяженностью.

3.7.3 Визуализация и анализ заведений, которые являются одним объектом общепита на улице (количество посадочных мест, средний чек, рейтинги, сетевых/не сетевых по категориям и сетевых/не сетевых по округам)

К плану работ

Вывод:

У единственных заведений на улице

3.7.4 Суммарный чек по всем категориям цен по округам

К плану работ

Значения средних чеков заведений хранятся в столбце middle_avg_bill. Эти числа показывают примерную стоимость заказа в рублях, которая чаще всего выражена диапазоном. Посчитаем медиану этого столбца для каждого района. Используем это значение в качестве ценового индикатора района.

Больше всего денег в ЦАО, далее следует ЗАО и ВАО. Меньше всего денег в ЮВАО.

3.8. Анализ и сравнение цен в Центральном административном округе и других

К плану работ

Как удалённость от центра влияет на цены в заведениях?

Вывод:

Четверка лидеров по медианному среднему чеку по всем категориям ЦАО и ЗАО - 1000р, и СЗАО(700р) и САО(650р). Удаленность от центра уменьшаем средний чек заведений, но только не в ЗАО.

3.10. Общий вывод.

К плану работ

Собираем наблюдения по вопросам выше в один общий вывод.

В датасете представлено 8406 заведений обществвенного питания Москвы.
Датасет хранит 7 строковых столбцов, 6 численных и 1 целочисленный.

Явные дубликаты отсутствуют даже после приведения всех названий к строчному виду

Пропуски:
Максимальное количество пропусков в столбце 'middle_coffee_cup' - 93,6% пропусков в столбце. Дозаполнить или удалить тут пропуски невозможно, оставили так как есть.
Еще один столбец с пропусками 62,5% - это 'middle_avg_bill' (срединный средний чек) - это числовое значение столбца 'avg_bill'(средний чек). Исследовав самую распространенную сеть в Москве "Шоколадница" - мы определили что даже в ней нет однородности цен, посмотрели уровень цен заведений по категориям и округам - тоже нет однородности поэтому столбец 'middle_avg_bill' оставили так как есть. Еще один недозаполненный столбец 'price' - это градация заведений по среднему чеку - 60% пропуски. Уровень цен в категориях варьируется и зависит от слишком многих факторов, поэтому оставили данные в столбце так как есть.
Кроме того есть пропуски в столбце 'hours' - часы работы 6,4% это не существенно, пропуски заполнили "unknown" для дальнейшей работы.
Столбец "seats" - количество посадочных мест - пропуски это может быть как незаполненность данных, так и заведения с полным отсутствием посадочных мест, поэтому этот столбец тоже оставим "как есть".

Самые популярные часы работы заведений общественного питания с 10.00 до 22.00 и ежедневно, круглосуточно.

Распределение по уровню цен в Москве: 2/3 заведений имеют средние цены.
почти треть заведений имеют уровень цен высокие и выше среднего и лишь 5% - каждое двадцатое заведение имеет низкие цены.

В Москве нет места низким ценам, очевидно из-за высокой стоимости аренды

Медианные и средние цены не совпадают даже в этом небольшом количестве полностью заполненных данных. Медианная цена во всех ценовых категориях ниже чем средняя, что свидетельствует о выбросах вверх.

Следовательно ставка большей части заведений в Москве - невысокий средний чек и большое число посетителей.

Мы видим, что в первичных данных

Причем на заведения длительного пребывавания (кафе и рестораны) приходится чуть больше половины 52,6%. Остальную часть рынка занимают заведения быстрого питания, еда на вынос и заведения с барными стойками. Если учесть что мы рассматриваем данные лета 2022 года, а до этого были самоизоляция и ограничения в работе заведений общественного питания. Разрешена была работа "на вынос" и доставка, и продолжалось это с марта 2020 года до марта 2022 года, то разумно предположить что из-за ограничений в работе заведения общественного питания длительного пребывания просто разорились и не выдержали конкуренции с предприятиями небольшого формата и большой мобильности. Есть предположение что из маленького формата пиццерий, кофеен и баров/пабов вырастают вполне себе большие рестораны и кафе
Что удивительно в ЗАО сосредоточены заведения-гиганты общественного питания (1288 посадочных мест).

Тройка категорий-лидеров по посадочным местам: ресторан (86), бар/паб (82) и кофейня (80).
Похоже кофейный бизнес идет хорошо, количество посадочных мест догоняет рестораны и пабы и, что удивительно - кофейни перегнали столовые! Еще одна аномалия - бары/пабы по среднему количеству посадочных мест обгоняют рестораны.
Судя по всему посадочные места на барных стульях весьма популярны в Москве, то есть компактное размещение посетителей в Барах/пабах и кофейнях выгдно сказывается на бизнесе.

В целом медианное количество посадочных мест в заведениях Москвы от 50 до 86 и в целом не превышает 100.

В в сетевых:
кафе, ресторанах, кофейнях, быстром питании и столовых медиана посадочных мест больше.
В булочных медиана одинаковая вне принадлежности к сетям. В не сетевых:
барах/пабах и пиццериях медиана посадочных мест больше.
Максимальная разница в медиане посадочных мест между сетевым и несетевым заведением в категории кофейня. Сетевая кофейня даст приблизительно +30 посадочных мест к не сетевой.
Большинство заведений на рынке среднего формата по посадочным местам.

Сетевых заведений почти в 2 раза меньше чем не сетевых (или 1/3 и 2/3) в общем датасете. Открыть франшизу и пользоваться всеми привилегиями сети дороже чем быть пионером и открывать собственное заведение.
Если в не сетевых заведениях лидируют кафе, рестораны и кофейни(кафе существенно больше), то в сетевых - доли кафе, ресторанов и кофеен практически одинаковые. Значит открыть сетевое заведение - ресторан, кафе или кофейню выбирают равное количество инвесторов, вопрос видимо в уровне вложений - у кого сколько есть. Булочных, пиццерий и кофеен сетевых больше чем не сетевых. И наоборот кафе, ресторанов и пабов/баров больше не сетевых.
В ТОП15 по количеству заведений - больше всего 7 - категория кофейня, 3 кафе, 2 пиццерии, 2 ресторана и 1 булочная. Следовательно, 7 кофеен из 15 - это 47%. Значит, кофейни лидируют в количественном топе заведений общественного питания Москвы. Скорее всего очевиден факт уменьшения доли крупных заведений в ресторанном бизнесе и заполнение образовавшегося места на рынке сетями кофеен и булочных, которые в период самоизоляции освоили онлайн формат и еду на вынос и быстро перестроились.
В ТОП15 попали известные сети, небольшого формата и среднего уровня цен и большой проходимости, часто их можно встретить возле станций метро в Москве.

В ЮАО, СВАО и ЮВАО - дефицит сетевых заведений общественного питания, а в ЗАО и ЮЗАО их слишком много.
А не сетевые заведения сосредоточены в ВАО и ЮВАО, а в ЦАО и ЗАО их, вполне вероятно, не хватает.

Во всех округах города Москвы кроме Центрального лидируют кафе. В топ3 по округам входят еще рестораны и кофейни. На последнем месте по распространенности - булочные и столовые.

Визуально больше всего заведений общественного питания в Центральном округе, меньше всего - в Северо-Западном.
Если предположить что количество кофеен может "дорасти" до количества кафе как в ЦАО, то Хуже всего потенциал для роста числа кофеен в ЦАО, СЗАО(там мало заведений вообще) и в САО. Лучше всего потенциал ЮВАО и ВАО, на втором месте по возможности роста ЮЗАО и ЮАО. В остальных округах просто есть потенциал для открытия кофеен.

Низкие цены существенно портят рейтинги в барах/пабах и быстром питании. Цены выше среднего портят рейтинги столовых. Средние цены снижают рейтинг булочных.
Самый высокий средний рейтинг 4,5 в ресторанах с высокими ценами - оно и понятно, скорее всего часть выручки рестораны тратят на оборудование, сотрудников и интерьер, а это благотворно сказывается на рейтинге. Самый низкий средний рейтинг в барах/пабах с низкими ценами 3,9.
Самый однородный средний рейтинг от 4,3 до 4,4 у кофеен, то есть какие бы цены не были у кофеен, ее рейтинг будет достаточно высоким.
Центральный район всегда на пункт выше имеет рейтинг почти во всех категориях.
С рейтингом кофеен хуже всего обстоит дело в ЗАО - 4,2, в остальных районах 4,3
На карте видно что лучшие рейтинги в ЦАО, худшие в СВАО и ЮВАО.
Меньше всего заведений на юге и юго-востоке. Больше всего в центре. Также запад Москвы плохо заполнен заведениями общественного питания.

Особенности ЦАО - он лидирует по всем параметрам:
самые высокие чеки
самые высокие рейтинги
больше всего заведений во всех категориях.
Там больше всего денег, но также там
САМАЯ БОЛЬШАЯ аренда и
много силовых ведомств, которые не способствуют ведению бизнеса. Отличительной особенностью ЦАО является большая концентрация достопримечательностей и туристических мест. Кроме того много административных учреждений и бизнес-центров тоже находится там. Театры, выставочные залы, храмы, университеты - все это привлекает много посетителей в заведения общественного питания.

Улицы с максимальным количеством заведений: В ТОП15 улиц с самым большим количеством заведений попали не только улицы загруженные общепитом, но и просто очень длинные улицы. Когда мы добавили протяженность улиц и рассчитали плотность загрузки заведениями - результат ТОП 15 изменился и лидером стала Пятницкая улица на которой плотность самая высокая - 26 заведений на 1 км. А МКАД с 10-го места переместился на последнее, просто потому что его протяженость 108 км.
На самых загруженных улицах:

Улицы с минимальным(1) количеством заведений:
Такие заведения общепита раскинуты практически по всей территории города и как правило располагаются вдали от основных дорог, в промзонах, рядом с парками.
У единственных заведений на улице:

Больше всего улиц с одним заведением в ЦАО(там много коротких улочек, на которых по одному заведению) почти в три раза больше чем в СВАО, ВАО и САО. В остальных округах еще меньше.
Самый плохой рейтинг в ЮВАО, 3.0.

В одиноких заведениях есть 2 пика уровня среднего чека - на 200р и на 1600р. Скорее всего - это 2 уровня обслуживания - быстрое питание (кофе и булочка или шаурма) и второй вариант 1600р - это заведение длительного пребывания с средним чеком полноценного обеда.
Визуально - больше всего таких улиц с одним заведений в центре и это связано с их короткой протяженностью. Кофейни входят в топ3 как сетевых, так и не сетевых заведений общественного питания. Таким образом, сети заведений общественного питания и частники открывают в центре на маленьких улочках одинокие заведения потому, что плотность потока людей достаточна в ЦАО не только для окупаемости высокой аренды, но и для прибыли.

Больше всего денег в ЦАО, далее следует ЗАО и ВАО. Меньше всего денег в ЮВАО.
Четверка лидеров по медианному среднему чеку по всем категориям ЦАО и ЗАО - 1000р, и СЗАО(700р) и САО(650р). Удаленность от центра уменьшаем средний чек заведений, но только не в ЗАО.

Необязательное задание:

проиллюстрируйте другие взаимосвязи, которые вы нашли в данных. Например, по желанию исследуйте часы работы заведений и их зависимость от расположения и категории заведения. Также можно исследовать особенности заведений с плохими рейтингами, средние чеки в таких местах и распределение по категориям заведений.

3.9 Дополнительный анализ.

К плану работ

3.9.1 Распределение среднего чека в сетевых кофейнях с уровнем средних цен.

К плану работ

В сетевая кофейня со средними ценами средний чек имеет 2 пика на 320 и 800 рублей - это видимо 2 уровня обслуживания (быстрое питание и кафе/ресторан).

3.9.2 Общие взаимосвязи между столбцами данных - pairplot.

К плану работ

**Рейтинг и количество мест в заведениях обратно пропорционально.
Средний чек выше в центре.
Средний чек выше в небольших заведениях.
Есть средняя цена за чашку каппучино в заведениях до 600 посадочных мест.

3.9.3 Диаграмма рассеяния среднего чека по категориям цен и принадлежности к сети.

К плану работ

Самый большой разброс среднего чека в категории цен - высокие, самый маленький - низкие. В низких ценах нет люфта для разнообразия цен, а в категории средние цены максимум заведений и, как следствие, большая конкуренция делает цены однородными. В категории высокие цены - у сетевых заведений цены ниже, у не сетевых максимум среднего чека 35000 рублей.

3.9.4 Зависимость среднего чека по категориям цен и принадлежности к сетям.

К плану работ

разница высоких цен между сетевым и не сетевым заведением больше всего в категории высоких цен

3.9.6 Распределение среднего чека в зависимости от принадлежности к сети в целом.

К плану работ

Распределение среднего чека в зависимости от принадлежности к сети - в сетях есть 2 пика, в несетевых только один, значит несетевые заведения гибче адаптируются к рынку и не имеют жестких цен.

3.9.7 Диаграмма рассеяния: зависимость рейтинга от среднего чека

К плану работ

Высокие рейтинги не зависят от среднего чека чека заведения. Низкие рейтинги сосредоточены на уровне среднего чека до 1000 рублей.

3.9.8 Круговая диаграмма: суммарного чека от категории цен заведения

К плану работ

максимальные деньги зарабатывают в категории средних цен - практически 2/3 от всех средних чеков.

3.9.9 Круговая диаграмма: суммарного чека от категориям заведения

К плану работ

Максимум денег зарабатывают рестораны, меньше всего булочные.
Кофейня может развиваться так: + пицца, далее + бар, Далее + трансформация в кафе, далее + статус ресторана. Именно так идет распределение денежных поступлений

3.9.10 Круговая диаграмма: суммарного чека по округам

К плану работ

ЗАО на втором месте по количеству денег, но в 4 раза дешевле ЦАО

3.9.11 Самые популярные средние чеки и их процентное количество

К плану работ

в 5-ти из 10 позиций цены выше 1000 рублей. Диапазан топ значений средних чеков от 300 до 2000 рублей. В сумме количество топ 10 значений чеков составляют почти половину от общего числа. Средний чек 1000-1500р встречается в 2 раза чаще(6,32%) чем второй по распространенности 1500-2000р (3,14%).

3.9.11 Самые популярные средние чеки за чашку каппучино и их процентное количество

К плану работ

В датасете лидирует цена чашки кофе 256 рублей встречается в 8,25% случаев, на втором месте - 60 рублей встречается в 6,33% случаев, на третьем - 95 рублей встречается в 6,14% случаев.

4. Детализированное исследование: открытие кофейни.

К плану работ

Основателям фонда «Shut Up and Take My Money» не даёт покоя успех сериала «Друзья». Их мечта — открыть такую же крутую и доступную, как «Central Perk», кофейню в Москве. Будем считать, что заказчики не боятся конкуренции в этой сфере, ведь кофеен в больших городах уже достаточно. Попробуем определить, осуществима ли мечта клиентов.

Ответим на следующие вопросы:

4.1 Сколько всего кофеен в датасете?

К плану работ

Сетевых кофеен на 2% больше чем не сетевых.

4.2 В каких районах их больше всего, каковы особенности их расположения?

К плану работ

В ЦАО больше всего кофеен 30%, САО на втором месте - 14%, на третьем месте СВАО и ЗАО - 11%. в СЗАО кофеен почти в 8 раз меньше чем в ЦАО. Вывод - чем ближе к центру, тем больше кофеен. Юг, Юго-восток, Северо-запад и Восток Москвы - мало кофеен, средняя оснащенность кофейнями - запад и северо-восток.

4.3 Есть ли круглосуточные кофейни?

К плану работ

Круглосуточных немного, однако на таком графике затруднительно считывать их непосредственное количество Построим карту с наесенными заведениями - кофейни 24/7.

Круглосуточные кофейни есть и они сосредоточены в основном в ЦАО. В ЗАО и ЮЗАО их меньше от 5 до 9. В остальных районах их от 1 до 5. Сосредоточены кофейни в районе вокзалов и транспортных артерий.

4.4 Какие у кофеен рейтинги? Как они распределяются по районам?

К плану работ

Рейтинги у кофеен от 4,2 до 4,4. Самые низкие рейтинги у кофеен ЗАО от 4,2 до 4,22. В остальных райтона около 4,3.

4.5 На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?

К плану работ

Средний чек в не сетевых заведениях за чашку каппучино от 130 до 200 рублей в зависимости от районов, в сетевых - от 80 до 260. Максимальный средний чек в сетевых в ЗАО и ЦАО. Не сетевых ЗАО.

4.1. Вывод и рекомендации.

К плану работ

Всего кофеен в датасете: 1413, это 16,8%

Доли кофеен по округам Москвы, %%
Центральный административный округ 30.0
Северный административный округ 14.0
Северо-Восточный административный округ 11.0
Западный административный округ 11.0
Южный административный округ 9.0
Восточный административный округ 7.0
Юго-Западный административный округ 7.0
Юго-Восточный административный округ 6.0
Северо-Западный административный округ 4.0

В ЦАО больше всего кофеен 30%, САО на втором месте - 14%, на третьем месте СВАО и ЗАО - 11%. в СЗАО кофеен почти в 8 раз меньше чем в ЦАО. Вывод - чем ближе к центру, тем больше кофеен. Юг, Юго-восток, Юго-запад, Северо-запад и Восток Москвы - мало кофеен, средняя оснащенность кофейнями - север, запад и северо-восток.

Круглосуточные кофейни есть и они сосредоточены в основном в ЦАО(22-26). В ЗАО и ЮЗАО их меньше от 5 до 9. В остальных районах их от 1 до 5. Сосредоточены кофейни в районе вокзалов и транспортных артерий.

Рейтинги у кофеен от 4,2 до 4,3. Самые низкие рейтинги у кофеен ЗАО от 4,2 до 4,22. В остальных райтона около 4,3.

Средний чек с несетевых заведениях за чашку каппучино от 130 до 200 рублей в зависимости от районов, в сетевых - от 80 до 260. Максимальный средний чек в сетевых - в ЗАО и ЦАО. Не сетевых - в ЗАО.

Исследуя данные мы обнаружили что максимальное количество пропусков в столбце 'middle_coffee_cup', поэтому рекомендации по ценам для кофеен должны быть исследованы перед открытием эмпирически (сами ходим и смотрим прайсы конкурентов). Ценовой диапазон среднего чека "пляшет" даже в рамках одной сети кофеен.

Распределение по уровню цен в Москве 2/3 заведений имеют средние цены. Пятая часть заведений имеют уровень цен высокие и выше среднего и лишь 5% - каждое двадцатое заведение имеет низкие цены. Следовательно выбирать лучше средний уровень цен.

Самые популярные часы работы заведений общественного питания с 10.00 до 22.00 и ежедневно, круглосуточно. Лучше выбрать круглосуточно.

В первичных данных на третьем месте по количеству - кофейни 16,8% доли от рынка. Кофейни входят в топ 3 как сетевых так и не сетевых заведений. Данные сосавлены на лето 2022 года, то есть через 3 месяца после отмены ограничений в заведениях общественного питания во время короновируса. Заведениям длительного пребывания принадлежит 52% рынка, остальное - бары, пиццерии, быстрое питание и прочее. Выбирая формат - можно ориентироваться как на длительное пребывание, так и на кратковременное. Посадочные места с барными стойками весьма популярны в Москве - это экономия места, увеличение количества посадочных мест и повышение пропускной способности заведения.

По медианному значению посадочных мест третьем месте кофейни - 80 посадочных мест. Похоже кофейный бизнес идет хорошо количество посадочных мест догоняет рестораны и пабы и, что удивительно - кофейни перегнали столовые!.

В целом медианное количество посадочных мест в заведениях Москвы от 50 до 86 (не более 100).

В сетевых кофейнях медианное число посадочных мест больше на 30 чем в не сетевых. Сетевых заведений почти в 2 раза меньше чем не сетевых. Это и понятно открыть франшизу и пользоваться всеми привилегиями сети стоит дороже, чем быть пионером и открывать собственное заведение в соответствии с законами РФ.

Если в несетевых заведениях явно лидируют кафе. В топ3 также входят рестораны и кофейни, то в сетевых - доли кафе, ресторанов и кофеен практически одинаковые. Значит, открыть сетевое заведение - ресторан, кафе или кофейню выбирают равное количество инвесторов, вопрос видимо в уровне вложений - у кого сколько есть. Кофеен сетевых больше чем не сетевых. И наоборот кафе, ресторанов и пабов/баров больше не сетевых. Очевидный вывод: кофейни чаще открывают сетевые.

В топе по количеству сетей заведений - больше всего кофеен 7 из 15 это 40% из топа, следвательно кофейни лидируют в топе Москвы. Также видно что из маленьких заведений кофейни и булочные "дорастают" до настоящих пабов/баров, кафе и ресторанов. Скорее всего очевиден факт уменьшения доли крупных заведений в ресторанном бизнесе и заполнение образовавшегося места на рынке сетями кофеен и булочных, которые в период самоизоляции освоили онлайн формат и еду на вынос и быстро перестроились. Да это всё известные сети, часто их можно встретить возле станций метро в Москве. Prime раньше была сетью кофеен из Ижевска еще год назад она была самой крупной сетью с 850 заведениями по всей России, а теперть они позиционируют себя как кафе. Лавка Братьев Караваевых явно была булочной, а теперь ресторан. Яндекс лавка была доставкой продуктов, а теперь пиццерия. Самая распространенная сеть в Москве - это Шоколадница - скорее всего эта старая сеть ресторанов консолидировано решала проблемные вопросы в кризис и у нас в датасете теперь это кофейня, возможно их маркетологи пришли к выводу что сокращение формата - это путь к выживанию. Признак который объединяет эти сети - почти все они имеют заведения малого формата.

Можно предположить что в ЮАО, СВАО и ЮВАО - дефицит сетевых заведений общественного питания, а в ЗАО их слишком много.
А не сетевые заведения сосредоточены в ЮАО, СВАО, ВАО и ЮВАО, а в ЗАО их вполне вероятно не хватает.

Во всех округах города Москвы кроме Центрального лидируют кафе, кофейни - на втором месте в САО. Во всех округах кроме Северного на третьем месте кофейни.

Хуже всего потенциал для роста числа кофеен в ЦАО, СЗАО(там мало заведений вообще) и в САО.

Самый однородный средний рейтинг от 4,3 до 4,4 у кофеен.

С рейтингом кофеен хуже всего обстоит дело в ЗАО - 4,2, в остальных райнах 4,3

Безусловным лидером является проспект Мира, на нем больше всего кафе, ресторанов и кофеен.
На одной из топ улиц улице кофеен и ресторанов поровну.

Не подходят для открытия кофеен (слабый потенциал развития) Кутузовский проспект, Варшавское шоссе, Профсоюзная, Вавилова, и Люблинская улицы - здесь их открыто примерно столько же сколько кафе и ресторанов. Также не подходит МКАД из-за скоростного режима и запрета остановок.**

Хороший потенциал открытия кофейни в ВАО, СВАО, ЮВАО, ЮЗАО, ЮАО. Чуть похуже - ЗАО. Центральный и СЗАО не рассматриваем - в первом максимум кокофеен, во втором вообще мало заведений (скорее всего из-за отсутствия посетителей).

Больше всего денег в ЦАО, далее следует ЗАО и ВАО.

Тройка лидеров по медианному среднему чеку по всем категориям ЦАО и ЗАО - 1000р, и СЗАО 700р. Удаленность от центра уменьшаем средний чек заведений, но только не в ЗАО.

Вывод по исследованию открытия кофеен:

Исходя из всего вышеперечисленного: Я бы рекомендовала открыть камерную кофейню в ЗАО или сетевую, но с высоким средним рейтингом. Можно выбрать проспект Вернадского - на нем расположено 3 станции метро - как одну из больших транспортных артерий 15% заведений выбирают такой вариант. Или второй вариант улица Студенческая - крорткая улица в районе Киевского вокзала(такой выбор делает каждое 20-е заведение), есть многочисленная студенческая популяция рядом и нет кофеен. Если инвестор опытный в ресторанном бизнесе - то лучше открыть не сетевое заведение в районе между Киевским вокзалом и метро Парк Победы. Вокзал сосредоточение покупателей, метро Парк Победы - место проведения досуга москвичей. В этом округе максимум денег, плохие рейтинги у кофеен и их мало. Рекомендовано открыть кофейню 24/7 - из-за близости вокзала и с количеством посадочных мест около 80. Если опыта в ресторанном бизнесе нет - то лучше открыть сетевое заведение со средними ценами (160-190 рублей за чашку каппучино) и максимальным рейтингом(от 4,3). В любом случае настоящий момент работает на инвестора - разорение части больших ресторанов дает возможности и потенциал роста и масштабирования бизнеса. Людям надоело есть холодную еду на вынос и использовать пластиковые тарелки.

5.Презентация.

К плану работ

Презентация https://disk.yandex.ru/i/S95Bp0OUNxwFYQ